第3章 集団内・種内の配列解析法
https://gyazo.com/be37df568f4f6e56cff7f5402add1cef
3.1 ゲノムの多様性を理解する
集団内・種内の遺伝子配列を解析する目的は多数
特定の疾患の変異
ヒトゲノムを決定する試み
2008~2015年にかけて2500人以上のゲノム配列が決定された
現在も、世界中で数万人単位のゲノム解析計画が進行中
生物進化に関する疑問にも答えることができるようになる
集団内・種内の遺伝子解析の目的の分類
本書では深く触れない
疾患の原因となる変異を推定
②集団の分化や集団の大きさの変化など、歴史的な遺伝的構造の変化の推定
③短い時間スケールで起こった自然選択とその遺伝的基盤の探索 ②③のための基礎的な解析手法を紹介する
3.2 変異のパターンと多様性の指標
3.2.1 遺伝的多様性を表す統計量
https://gyazo.com/1460445bdb30bfbd3cfd71f82820253c
この例は単数体生物なので、どの変異がどの配列上にあるのか確実にわかる
このようなサイトが複数あった場合、複数のサイト上にあるどのアレルどうしが同じ染色体上にあるのかという判定は難しい場合が多い A/Gというヘテロ接合サイトとC/Tというヘテロ接合サイトが隣り合っている場合には、A-C, A-T, G-C, G-Tというすべての組み合わせが考えられる
一つの表現方法は、二倍体の2本の配列をひとまとめにして表現すること
AかGはR、CかTはYというIUPAC表記を使って表記することができる 実験的手法や統計的手法によってSNPのアレルの組み合わせを決定すること ハプロタイピングによって得られたアレルの組み合わせから得られる配列のこと
ハプロタイプ配列を決定、または推定することができれば、二倍体生物の配列も単数体生物の配列と同様に扱うことが可能になる
複数の塩基配列間にどのような多様性があるかを測る指標
塩基多様度は二つのサンプルを集団からランダムに選んだ際に観察される、サイトあたりの違いの平均値
$ Nを有効集団サイズ、$ \muを世代あたりサイトあたりの突然変異率とすると、有効集団サイズが一定のライト-フィッシャー集団では、塩基多様度$ \piについて$ \pi=4N\mu=\thetaという関係式が成り立つ 図3.1の例では、配列間には長さ27bpの領域に平均4.4個の違いがあるので$ \pi=0.16となり、集団変異率$ \thetaの推定値も同じく$ 0.16となる サンプル間で一つでも異なっているサイトの数のこと
図3.1の例では$ 9
集団の大きさが一定ですべての変異が中立である場合、長さ$ Lbpからなる$ n本の配列から得られた分離サイト数$ Sは、次のようになる
$ S=4a_nN\mu L, a_n=\sum_{i=1}^{n-1}\frac{1}{i}\qquad(3.1)
$ a_nは配列の数$ nが増えると単調に増加する(→単調増加)ので、式(3.1)から、調べる配列が増えれば増えるほど$ Sは大きくなることがわかる 式(3.1)を変形すると、観察された$ Sの値から、次のように集団変異率$ \theta_Wを推定することができる
$ \theta_W=4N\mu=\frac{S}{a_nL} \qquad (3.2)
$ \theta_Wはサイトあたりの集団変異率として定義されていることに注意
図3.1の例では、$ S=9, L=27, n=5であるから$ \theta_W=0.16となる
$ \muの推定値はさまざまな方法で得られており、1.6.1項で述べたように、ヒトではおよそ1世代あたり$ 1\times10^{-8}〜$ 2\times10^{-8}程度であるとされている
したがって、分離サイト数を観察し、知られている突然変異率($ \mu)を上式に当てはめると、有効集団サイズ$ Nの値が得られる
$ \theta_Wおよび$ \piによる$ Nの推定では、集団の大きさが一定であると仮定しているが、この仮定は実際の集団の動態から考えると非現実的
集団の大きさに変動が合った場合には、長期的な集団の大きさはその調和平均(逆数の平均の逆数)に等しくなることが知られている したがって、これらの多様性の指標から得られる$ Nの値は現時点の$ Nを表しているわけではなく、ある程度長期の集団の大きさが反映されているといえる
調和平均は、速度の平均値のように、より小さい値の影響を強く受けるから
このようにして推定された$ Nは、ヒトではおよそ10,000 この値は、現在生息しているすべてのヒトの人口より桁違いに小さい
現代の非アフリカヒト集団の祖先は、およそ5万~10万年前に、アフリカから世界中に拡散したと考えられている
推定された有効集団サイズと現人口との大きな違いは、ヒトの集団が数万年の間に急速に拡大した結果と考えられている
有効集団サイズには生物種ごとにある程度の傾向がみられる
ヒトは霊長類のなかでは比較的小さい有効集団サイズをもつといわれている
また、一般に産仔数が多く寿命が短い生物ほど、大きな有効集団サイズをもつことが知られている
例えば、野生のハツカネズミの有効集団サイズはおよそ$ 10^5〜$ 10^6程度の値をとる 3.2.2 サイト頻度スペクトラム
集団変異率$ \thetaから知ることのできる有効集団サイズ$ Nは、長期的な集団の大きさを平均化したものであり、それがどのように変化してきたのかについての情報を得ることは難しい
集団の大きさの時間的変化を知るためのデータの記述方法
https://gyazo.com/fa1384f439d5156aea6d2d50b57be536
特定のゲノム領域、もしくは全ゲノム領域中において、$ n個にサンプリングされたアレルのうち、いくつのアレルが変異アレルであるかをサイトごとに調べ、ヒストグラムで表したもの 図3.1の例で考える
突然変異の方向性を定めるために、サンプル1の配列を、比較的系統関係が離れた外群(アウトグループ)配列と仮定する サンプル2~5
すべての配列で変化があるものが1サイト
3つの配列で変化があるものが2サイト
2つの配列で変化のあるものが2サイト
1つの配列だけが違うものが4サイト
これをヒストグラムとして表したのが図3.2
SFSは多くの場合左に偏った分布になる
アレル頻度の低い変異のほうが観察される数が多い
外群となる適当なデータが得られない場合は、$ i番目の頻度データと$ n-i番目の頻度データを足し合わせて表現することもある
変異があったサイトにおいて、アレル頻度の少ないもの(マイナーアレル)の数をカウントすることと同義 SFSは、集団の大きさの変化と自然選択の両方の影響を受ける 集団が最近になって大きくなった場合
毎世代集団に入ってくる変異の数は$ 2N\mu個であるから、集団が大きくなって$ Nが大きくなると、集団中に流入してくる変異が増える
したがって、集団が大きくなった直後荒れる頻度の低い変異が相対的に多くなり、SFSは左に偏る
反対に集団が小さくなると、
新しく生まれる変異の数が少なくなり、遺伝的浮動によってアレル頻度の低い変異は急速に集団から失われる
したがって、アレル頻度の高い変異の割合が相対的に増え、SFSは右に偏る
https://gyazo.com/71a19ba4d6ec92caaa771191700af7a8
https://gyazo.com/b0282e0c72be1e34f23a5250abd60b63
モーリシャス島にはもともとヒト以外の霊長類が生息していなかったが、16世紀に船乗りがペットとしてカニクイザルを島に持ち込んだとされる
ごく少数の個体の移住による遺伝的多様性の低下
より一般的に、一時的な有効集団サイズの減少により遺伝的多様性の減少が起こること
ビン首効果の影響下にあるサイト頻度スペクトラムは、集団の大きさが一定のときに予想されるよりも極端に右に偏っており、低頻度のSNPが失われてることがわかる SFSの偏りを表す統計量としてしばしば用いられる
$ D統計量は、$ \pi-\theta_Wの値を、理論的に予測される標準偏差で割ったもの
$ D統計量は、集団が大きくなると負の値、集団が小さくなると正の値を示す
最近起こった集団の大きさの変化は、アレル頻度の低い変異に対して強い影響を与える
$ \theta_Wは$ \piよりも低アレル頻度の変異から影響を受ける統計量である
$ D統計量は集団の大きさの変化からだけでなく、自然選択からの影響も受ける
3.3 遺伝構造の推定
3.3.1 集団の分化と遺伝構造
個体間の近縁度によって作られる、個体がもつ遺伝的特徴の集まり もともと一つであった集団が、地理的隔離などにより複数の集団に分化すると、それぞれの集団において、遺伝的浮動などが要因となり、アレル頻度が変化することが予想される 3.3.2 集団間の分子度の定量化
$ F_{\mathrm{ST}}
いくつかの集団から得られた塩基配列を用いて、集団間でどれくらい遺伝的分化が起こっているかを定量化するための統計量の一つ
塩基配列レベルでの$ F_{\mathrm{ST}}は、ハドソン-スラットキン-マディソンの$ F_{\mathrm{ST}}($ K_{\mathrm{ST}})がよく用いられている $ F_{\mathrm{ST}}=1-\frac{H_W}{H_b}\qquad(3.3)
$ H_W: 同じ集団に属するサンプル間での平均的な塩基配列の違いの数
$ H_b: 異なる集団に属するサンプル間での平均的な塩基配列の違いの数
ほかにも根井が提案した$ \gamma_{\mathrm{ST}}という統計量があるが、基本的には$ F_{\mathrm{ST}}と同じような値をとる $ F_{\mathrm{ST}}の値は集団間の違いとともに大きくなり、最大で$ 1となる
集団間の分化が認められない場合には小さい値をとり、理論上の最小値は$ 0
集団ごとのサンプル数が釣り合っていない場合は、計算上負の値をとることもある
配列レベルではなく、SNPレベルでの$ F_{\mathrm{ST}}も重要な情報を含むことが多い この場合、$ F_{\mathrm{ST}}は集団間でのアレル頻度の分散として定義されることが多い
アレル頻度の分散の分布はその平均アレル頻度に左右されるので、平均アレル頻度を$ \bar pとすると、
$ F_{\mathrm{ST}} = \frac{\mathrm{Var}(p)}{\bar p(1-\bar p)}\qquad(3.4)
$ \mathrm{Var}(p): 集団間における$ pの分散
実際には、式(3.4)にサンプル数の偏りの効果を加えた、ウィアーとコッカーハムの方法がよく用いられる また、ゲノムレベルのSNP解析においては、より偏りの少ない方法で$ F_{\mathrm{ST}}を計算することが提案されている
3.3.3 主成分分析による個体遺伝情報の特徴抽出
$ F_{\mathrm{ST}}を指標として集団の分度化を定量化するには、どのサンプルがどの集団から得られたかの情報が前もって必要
そのような情報が事前にない場合は、得られたデータから集団構造を推定する探索的手法が有効
多数のSNPが多数の個体から得られているデータの場合に主成分分析で個体ごとの特徴を抽出する方法がよく用いられている
PCAは
SNPデータだけでなく、様々な多変量データについて適用することができる、最も基本的な多変量解析手法の一つ https://gyazo.com/8140f64da6f99715bbfe2faf7d797bdf
最初に選ぶ座標軸を、データの分散が最大になるようにとり、次にその軸に直行する軸をデータの分散が最大になるようにとる
この作業を繰り返す
多数の変数をもったデータに対して用いる方法
図は直感的な理解のために2変数の例
行列の$ i番目の対角要素に$ i番目の変数の分散、$ i行$ j列目の要素に$ i番目の変数と$ j番目の変数の共分散を配置した行列
SNPデータの場合、データのラベルは各個体であり、それぞれの変数はSNPの状態となる
table: 表3.1 PCA解析に用いられるデータの例
SNP1 SNP2 SNP3 SNP4 SNP5 SNP6
個体A A/A(0) G/T(1) C/C(0) G/G(0) A/A(0) C/T(1)
個体B A/A(0) G/G(0) C/T(1) G/A(1) T/T(2) C/C(0)
個体C A/G(1) T/T(2) C/T(1) G/G(0) T/T(2) C/C(0)
ホモ接合SNPを$ 0か$ 2で、ヘテロ接合SNPを$ 1という数値に変換してデータ化、変数の数は6子
実際のゲノムレベルの解析には数十万〜数百万個の変数が存在し、個体数よりもSNP数のほうが圧倒的に大きいので、表3.1の行と列を入れ替えて(転置させて)分散共分散行列を計算する
それぞれの個体について分散が計算でき、個体間の共分散も計算できるので、この表から、分散共分散行列を計算することができる 表3.1の形で観察されたデータを$ n\times p行列$ \mathbf{X}で表す
データの平均値が$ 0のとき、分散共分散行列$ \Sigmaは
$ \Sigma=\frac{\mathbf{XX}^\mathrm{T}}{p}\qquad(3.5)
$ \mathbf X^\mathrm T: $ \mathbf Xの転置行列 $ \Sigmaは$ n \times nの行列となる
$ \Sigmaの$ i番目に大きい固有値を$ \lambda_i、それに対応する固有ベクトルを$ \bm v_i=(v_{i1}, v_{i2}, \cdots, v_{nn})とする 定義上$ \Sigmaは対称行列なので、$ \bm v_iはそれぞれ直行する $ \mathbf{A}を$ \mathbf{\Sigma}の固有値からなる対角行列、$ \mathbf{V}を対応する固有ベクトルからなる行列とすると、$ \mathbf{\Sigma}は次のように対角化することができる $ \mathbf{\Sigma} = \mathbf{VAV}^\mathrm{T}=\left(\begin{matrix}v_{11} & v_{21} & \ldots & v_{n1} \\ v_{12} & v_{22} & & v_{n2} \\ \vdots & & \ddots & \vdots \\ v_{1n} & v_{2n} & \ldots & v_{nn} \end{matrix}\right)\left(\begin{matrix}\lambda_1 & 0 & \ldots & 0 \\ 0 & \lambda_2 & & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \ldots & \lambda_n \end{matrix}\right)\left(\begin{matrix}v_{11} & v_{12} & \ldots & v_{1n} \\ v_{12} & v_{22} & & v_{2n} \\ \vdots & & \ddots & \vdots \\ v_{n1} & v_{n2} & \ldots & v_{nn} \end{matrix}\right) \qquad (3.6)
固有ベクトル$ \bm{v_i}は第$ i番目の主成分
このとき、観測データ$ \bf Xに対して$ \bf Vを掛けることにより、新しい座標系へのデータの変換が行われる
固有値$ \lambda_iは、それぞれの主成分がどれだけ全体の分散を説明しているかを表す尺度とし用いられ、第$ i主成分の寄与率は、次の値で表される
$ \frac{\lambda_i}{\sum_{i=1}^n \lambda_i} \qquad (3.7)
PCAは、寄与率が大きい主成分だけを特徴として取り出すことで、複雑なデータを単純な形で把握することに役立つ
したがって、一般的には寄与率の大きいいくつかの主成分だけを取り出して視覚化することが多い
これまでの研究で、ヒトの例では、第1、第2主成分が、サンプルの地理的な距離に関連した特徴をよく反映していることが示されている
遺伝的構造が作られる原因の多くは、集団が隔離され、それぞれの集団で遺伝的浮動が働くことによる、集団間でのアレル頻度の差によるもの
近い距離に生息する個体ほど、共通の遺伝的背景をもつことが予想される
一般的に、生物はより近くの個体と交配を行うから
ヒトのSNPを用いて行われたPCA解析の例
https://gyazo.com/aceccedc0143dbe590447ab0ade48091
ヒトの場合、近縁な集団を特徴づけるような情報をもつSNPの数はとても少ない
したがって、一般的に第1、第2主成分であってもその寄与率はたかだか数%であり、1%以下である場合も多い
しかし、十分な数のSNPが解析に用いられていれば、寄与率が低くても十分な情報が得られている可能性がある
寄与率の絶対的な大きさだけに注目をして解析の妥当性を評価しないほうがよいだろう
3.3.4 集団遺伝学モデルに従ったクラスタリング
これらは、
PCAと同様、予備知識なしに集団構造の同定を行う方法
多数のSNPやマイクロサテライト配列長などの多型データから、サンプルがもつ遺伝構造を決定する方法 それぞれ、初期に開発されたプログラムの名前を指している
利点
PCAと同様に、得られたサンプルがどのような集団構造をもっているかあらかじめ知っている必要はなく、任意に与えられた集団数に従って、サンプルを最適な集団へ分割することができる点
SNPデータについて考える
仮定
SNPのアレル頻度が、そのサンプルが属する集団によって異なっており、集団内ではHW平衡が保たれていると仮定する $ k番目の集団における$ i番目のSNPにおける頻度を$ f_{ki}、ホモ接合体を遺伝子型0/0と1/1、ヘテロ接合体を遺伝子型0/1で表すと、あるサイトにおいてそれぞれの遺伝子型が観察される尤度$ PはHW平衡を仮定するので以下のようになる $ \begin{aligned}P(0/0) & = f_{ki}^2 \\ P(0/1) & = f_{ki}(1-f_{ki}) \\ P(1/1) & = (1-f_{ki})^2\end{aligned} \qquad (3.8)
各サイトが独立であると仮定すると、あるサンプルがもつすべての多型サイトに関して、上記の尤度を掛け合わせると、あるサンプルがある集団に属する尤度を求めることができる
したがって、この問題は、集団数が与えられたときの、集団ごと、サイトごとのアレル頻度の分布を推定することによって最適化が可能
推定すべきパラメータ数が多く計算量が多いため、いくつかの適当な仮定をおいて推定を行う方法が提案されており、さまざまに派生した推定法が提案されている
解析を行うときには、それぞれのアルゴリズムで行われている最適化について少しは知っておいたほうがよい
また、実際の集団は、過去に存在した祖先集団が混合したものであることも多いので、ある個体のゲノムのある部分がそれぞれの祖先集団に属していたと仮定して祖先集団を推定するという考え方が一般的に用いられている
この場合、個体はさまざまな祖先集団から由来するゲノムを混合して持っていると仮定される
https://gyazo.com/9e7f81728ae144e67c6c44d541b604a2
PCAを含むこれらの方法の多くは、SNP間の連鎖がないことを仮定している
多くの場合、近い距離にあるSNPは連鎖不平衡の状態にある この問題を解決するために、あらかじめデータセットから、近い距離にあるSNP、または連鎖不平衡にあるSNPをデータから除いておく必要がある
3.4 自然選択を受けたゲノム領域の推定
3.4.1 自然選択とゲノム
生物の進化を研究する理由
地球とそこにすむ生物がたどった歴史(自然史)を明らかにすること なぜそのような歴史をたどったのかという原因を探ること
生物種間の違いや集団内の個体の違いを作り出している塩基配列の違いのうち、どれが遺伝的浮動による中立的なもので、どれが自然選択によるものであったか
3.4.2 バックグラウンドセレクション
有害な変異が集団中から取り除かれる過程で起こる現象
有害変異の周辺の遺伝的多様度を減少させる
https://gyazo.com/9d8a5c9dd8afa2f4e0d332c77ff3b8b7
バックグラウンドセレクションは有害な変異が起こる場所から物理的に遠くなってくると効果が薄れる
集団のゲノム上には、世代ごとにいつも有害な変異が起こっていると考えられる
有害な変異が起こると、その変異が起こった染色体は集団中から除かれる
結果として集団内での中立的な多様性が減少する
変異が致死ではない有害変異の場合、変異と近傍の領域との間に組換えが起こると、変異を起こした領域周辺だけが集団から取り除かれる
ヒトではエクソン近傍に近づくに従って、集団内での遺伝的多様性が減少していく傾向がみられる エクソンで起こる有害な変異が周辺の中立な変異を取り除く、バックグラウンドセレクションの効果によって説明できる
3.4.3 セレクティブスウィープ
1. 正の自然選択がゲノムに与える影響
https://gyazo.com/c96958ae5627b89db1591d4c00185cbd
有利な変異が集団に急速に固定すると、周りの領域にあるそのほかの変異も一緒に集団中に広まるために、有利な変異の周辺の遺伝的多様性が減少するという予測からなる
バックグラウンドセレクションとセレクティブスウィープを区別するのはそれほど容易ではない
遺伝的多様性の減少という共通した予測
セレクティヴスウィープを検出する方法
集団愛の変異パターンは集団の大きさの変化と自然選択の両方の影響を受ける
したがって、通常はゲノム全体、もしくは多数の遺伝子座位において変異パターンの特徴を抽出する統計量を計算し、そのなかで注目している領域が、ほかの領域と違った統計量をとるかどうかについて検定を行うことが多い
逆に言うと、これらの検定はゲノム全体が中立的に進化しているということを大前提として行われている
2. 要約統計量による検定
自然選択がある変異に対してはたらいた場合、その変異が急速に固定し、周辺領域の遺伝的多様性が一時的に失われる
固定が起こってすぐの段階では、変異が存在しなくなってしまうので、正の自然選択が起こったのか、その領域の突然変異率が極端に低いのかを知ることは難しい しかし、有利な変異が固定したあと、領域内で新しい突然変異が起こると、その領域中にはアレル頻度の低い変異と高い変異が多く存在するようになる
田島の$ D統計量は、アレル頻度の低い変異が多いと負になることが予想される
自然選択がはたらいていた領域では、$ D統計量は負の値になることが予想される
つまり、変異の方向性を無視した統計量である
派生変異を同定することにより、検定の偽陽性率を下げる効果がある 近縁種の塩基配列がわかっている集団では、近縁種の塩基配列を外群にとることにより、派生変異を判別することができる
3. ハプロタイプを用いた検出
固定した、もしくはアレル頻度の高い変異を見つけた場合、もしその変異が正の自然選択によりアレル頻度が上昇したものであれば、その変異があるハプロタイプは、他のハプロタイプよりも長い距離まで均質性を示す
中立な変異と有利な変異では、固定する時間は有利な変異が圧倒的に短い
中立な変異の固定
遺伝的浮動により固定することがある
固定するまでに何度も組換えが起こる
→ハプロタイプの長さが短くなる
有利な変異の固定
中立変異よりも急速に広まる
固定するまでが早いので、組換えの影響をあまり受けない
結果として比較的長い領域が同じハプロタイプをとると予想される
注目している変異が存在するハプロタイプのホモ接合度の変化によって表される 注目する領域から解析する領域を広げていき、EHHが減少する度合いをほかの領域と比較することにより、自然選択の有無を検定できる
3.5 ソフトウェアの紹介
基本統計量だけでなく、田島のD統計量や、集団間の$ F_{\mathrm{ST}}、連鎖不平衡量など様々なものが計算可能 ver6.0以降はRAD-seqから得られるハイスループットデータにも対応 集団遺伝学解析に用いることのできるRのパッケージも存在する GENEPOPというソフトウェアを用いて基礎的な統計量を計算する方法を提供している PCA解析で最もよく使われているソフトウェア
大量のデータ解析に適している
STRUCTURE/ADMIXTURE解析
Rのadgenetパッケージは、PCA解析だけでなく、STRUCTUREと似たようなクラスタリング法も提供している PCA解析、STRUCTURE/ADMIXTURE解析において、連鎖不平衡にあるSNPをフィルタリングするためには、PLINKが利用できる
iHSを統計量として用いた解析を行うには、多型データがそれぞれの染色体にフェージングされていないといけない フェージング
ただし、フェージングにはある程度のSNPデータが必要となっている
フェージングされたデータを用いてiHSの解析を行うことのできるRパッケージ
iHS以外にも、ゲノム中で正の自然選択が働いた領域を推定する方法
セレクティブスウィープがはたらいてSFSが偏った領域を探し出してくるソフトウェア
フェージングされていないデータに対しても利用可能
連続不平衡料を指標に同様の領域を探し出してくる
フェージングされていないデータに対しても利用可能